我应该使用哪种统计检验?
作者:Ruben Geert van den Berg,发表于 SPSS 数据分析 之下。
- 单变量检验 (Univariate Tests)
- 组内检验 (Within-Subjects Tests)
- 组间检验 (Between-Subjects Tests)
- 关联性测量 (Association Measures)
- 预测分析 (Prediction Analyses)
- 分类分析 (Classification Analyses)
概要
如果你清楚以下两点,找到合适的统计检验就很容易:
- 你要寻找的检验的基本类型;
- 涉及变量的测量水平 (Measurement Levels)。
对于每种类型和测量水平,本教程会立即指出正确的统计检验。我们还将简要定义这 6 种基本类型的检验,并通过简单的例子进行说明。
1. 单变量检验概述
测量水平 (MEASUREMENT LEVEL) | 零假设 (NULL HYPOTHESIS) | 检验 (TEST) |
---|---|---|
二分变量 (Dichotomous) | 总体比例 = x? | 二项检验 (Binomial test) 单比例 Z 检验 (Z-test for 1 proportion) |
分类变量 (Categorical) | 总体分布 = f(x)? | 卡方拟合优度检验 (Chi-square goodness-of-fit test) |
定量变量 (Quantitative) | 总体均值 = x? | 单样本 t 检验 (One-sample t-test) |
总体中位数 = x? | 单中位数符号检验 (Sign test for 1 median) | |
总体分布 = f(x)? | 柯尔莫哥洛夫-斯米尔诺夫检验 (Kolmogorov-Smirnov test) Shapiro-Wilk 检验 (Shapiro-Wilk test) |
单变量检验 - 快速定义
单变量检验 (Univariate Tests) 是只涉及 1 个变量的检验。 单变量检验或者检验:
- 某些总体参数 (Parameter) - 通常是均值 (Mean) 或 中位数 (Median) - 是否等于某个假设值;
- 某些总体分布 (Distribution) 是否等于某个函数,通常是 正态分布 (Normal Distribution)。
一个典型的例子是 单样本 t 检验 (One sample t-test):它检验一个总体均值 - 一个参数 - 是否等于某个值 x 。 这个检验只涉及 1 个变量 (即使你的数据文件中有很多变量)。
2. 组内检验概述
测量水平 (MEASUREMENT LEVEL) | 2 个变量 | 3 个或更多变量 |
---|---|---|
二分变量 (DICHOTOMOUS) | McNemar 检验 (McNemar test) 依赖比例 Z 检验 (Z-test for dependent proportions) | Cochran Q 检验 (Cochran Q test) |
名义变量 (NOMINAL) | 边缘同质性检验 (Marginal homogeneity test) | (不可用) |
有序变量 (ORDINAL) | Wilcoxon 符号秩检验 (Wilcoxon signed-ranks test) 两个相关中位数的符号检验 (Sign test for 2 related medians) | Friedman 检验 (Friedman test) |
定量变量 (QUANTITATIVE) | 配对样本 t 检验 (Paired samples t-test) | 重复测量方差分析 (Repeated measures ANOVA) |
组内检验 - 快速定义
组内检验 (Within-Subjects Tests) 比较在同一受试者 (通常是人) 上测量的 2 个或更多变量。 例如 重复测量方差分析 (repeated measures ANOVA): 它检验在同一受试者上测量的 3 个或更多变量是否具有相等的总体均值。
组内 (Within-subjects) 检验也称为:
- 配对样本 (Paired samples) 检验 (如 配对样本 t 检验 (paired samples t-test));
- 相关样本 (Related samples) 检验。
“相关样本 (Related samples)”指的是组内 (within-subjects),而“K”表示 3 个或更多。
3. 组间检验概述
结果变量 (OUTCOME VARIABLE) | 2 个子群体 | 3 个或更多子群体 |
---|---|---|
二分变量 (Dichotomous) | 两个独立比例的 Z 检验 (Z-test for 2 independent proportions) | 卡方独立性检验 (Chi-square independence test) |
名义变量 (Nominal) | 卡方独立性检验 (Chi-square independence test) | 卡方独立性检验 (Chi-square independence test) |
有序变量 (Ordinal) | Mann-Whitney 检验 (Mann-Whitney test) (平均秩) 2 个以上独立中位数的中位数检验 (Median test for 2+ independent medians) | Kruskal-Wallis 检验 (Kruskal-Wallis test) (平均秩) 2 个以上独立中位数的中位数检验 (Median test for 2+ independent medians) |
定量变量 (Quantitative) | 独立样本 t 检验 (Independent samples t-test) (均值) Levene 检验 (Levene’s test) (方差) | 单因素方差分析 (One-way ANOVA) (均值) Levene 检验 (Levene’s test) (方差) |
组间检验 - 快速定义
组间检验 (Between-Subjects Tests) 检验 2 个或更多子群体在以下方面是否相同:
- 参数 (Parameter) (总体均值、标准差或比例);
- 分布 (Distribution)。
最著名的例子是单因素 ANOVA (方差分析),如下图所示。 请注意,子群体由子样本表示 - 由某些分类变量指示的观察值组。
“组间 (Between-subjects)”检验也称为“独立样本 (Independent samples)”检验,例如 独立样本 t 检验 (independent samples t-test)。“独立样本 (Independent samples)”意味着子样本不重叠:每个观察值仅属于 1 个子样本。
4. 关联性测量概述
(变量是) | 定量 (QUANTITATIVE) | 有序 (ORDINAL) | 名义 (NOMINAL) | 二分 (DICHOTOMOUS) |
---|---|---|---|---|
定量 (QUANTITATIVE) | Pearson 相关 (Pearson correlation) | |||
有序 (ORDINAL) | Spearman 相关 (Spearman correlation) Kendall’s tau (Kendall’s tau) 多色相关 (Polychoric correlation) | Spearman 相关 (Spearman correlation) Kendall’s tau (Kendall’s tau) 多色相关 (Polychoric correlation) | ||
名义 (NOMINAL) | Eta 平方 (Eta squared) | Cramér’s V (Cramér’s V) | Cramér’s V (Cramér’s V) | |
二分 (DICHOTOMOUS) | 点二列相关 (Point-biserial correlation) 二列相关 (Biserial correlation) | Spearman 相关 (Spearman correlation) Kendall’s tau (Kendall’s tau) 多色相关 (Polychoric correlation) | Cramér’s V (Cramér’s V) | Phi 系数 (Phi-coefficient) 四格相关 (Tetrachoric correlation) |
关联性测量 - 快速定义
关联性测量 (Association Measures) 是指示 2 个变量关联程度的数字。 最著名的关联性测量是 Pearson 相关 (Pearson correlation): 它是一个数字,告诉我们 2 个定量变量线性相关的程度。 下图将相关性可视化为散点图。
5. 预测分析概述
结果变量 (OUTCOME VARIABLE) | 分析 (ANALYSIS) |
---|---|
定量 (Quantitative) | (多元)线性回归分析 ((Multiple) linear regression analysis) |
有序 (Ordinal) | 判别分析 (Discriminant analysis) 或有序回归分析 (Ordinal regression analysis) |
名义 (Nominal) | 判别分析 (Discriminant analysis) 或名义回归分析 (Nominal regression analysis) |
二分 (Dichotomous) | Logistic 回归 (Logistic regression) |
预测分析 - 快速定义
预测检验 (Prediction tests) 检验如何以及在多大程度上可以从 1 个或更多其他变量预测一个变量。 最简单的例子是简单线性回归,如下图所示。
预测分析有时会悄悄地假设因果关系 (causality): 无论什么_预测 (predicts)_ 某个变量,通常被认为会_影响 (affect)_ 这个变量。 根据分析的内容,因果关系可能是也可能不是合理的。 但是请记住,下面列出的分析并不能_证明 (prove)_ 因果关系。
6. 分类分析
分类分析 (Classification analyses) 试图识别和描述观察值或变量的组。 分类分析的 2 种主要类型是:
- 因子分析 (factor analysis),用于查找变量 (variables) 的组 (“因子 (factors)”);
- 聚类分析 (cluster analysis),用于查找观察值 (observations) 的组 (“聚类 (clusters)”)。
因子分析 (Factor analysis) 基于 相关性 (correlations) 或 协方差 (covariances)。 强烈相关的变量组被认为衡量相似的潜在因子 - 有时称为“构念 (constructs)”。 基本思想如下图所示。
聚类分析 (Cluster analysis) 基于观察值 (通常是人) 之间的距离。 彼此之间距离较小的观察值组被认为代表诸如市场细分之类的聚类。